花费 27 ms
Gumbel-Softmax Trick和Gumbel分布

  之前看MADDPG论文的时候,作者提到在离散的信息交流环境中,使用了Gumbel-Softmax estimator。于是去搜了一下,发现该技巧应用甚广,如深度学习中的各种GAN、强化学习中的A2 ...

Tue Aug 14 01:03:00 CST 2018 7 20602
自然语言处理(一) 关系抽取

Relation Extraction 信息抽取在自然语言处理中是一个很重要的工作,特别在当今信息爆炸的背景下,显得格外的生重要。从海量的非结构外的文本中抽取出有用的信息,并结构化成下游工作可用的格 ...

Mon Mar 11 14:36:00 CST 2019 0 12960
AlphaGo原理浅析

论文笔记:Mastering the game of Go with deep neural networks and tree search 背景:完全信息博弈与MCTS算法 要完全弄清Alph ...

Mon May 09 01:12:00 CST 2016 1 23807
NLP | 文本风格迁移 总结

简介 对于文本风格迁移,先举个例子: Input:谢谢 Output(金庸): 多谢之至 Input: 再见 Output(金庸): 别过! Input:请问您贵性? O ...

Fri Jan 10 23:49:00 CST 2020 1 4741
强化学习(Reinforcement Learning)

强化学习(Reinforcement Learning) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 通过阅读《神经网络与深度学 ...

Thu Sep 30 05:19:00 CST 2021 0 560
DQN算法原理详解

一、 概述 强化学习算法可以分为三大类:value based, policy based 和 actor critic。 常见的是以DQN为代表的value based算法,这种 ...

Thu May 23 05:27:00 CST 2019 1 2490
强化学习——值迭代和策略迭代

【强化学习】值迭代和策略迭代 在强化学习中我们经常会遇到策略迭代与值迭代,但是很多人都搞不清楚他们两个之间的区别,他们其实都是强化学习中的动态规划方法(DP)。 ——《Reinforcemen ...

Wed Sep 18 03:33:00 CST 2019 0 1326

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM